机器学习算法之旅¶
在这篇文章中,我们将带你了解最流行的机器学习算法。浏览一下该领域的主要算法,以了解哪些方法是可用的。
这里提供两种方法来思考和分类你们可能在这个领域遇到的算法:
- 第一种是根据算法的学习方式分组。
- 第二种是通过形式或功能的相似性(问题类型)将算法分组(就像将相似的动物分组在一起)。
这两种方法都是有用的,但我们将重点放在通过相似性对算法进行分组,并介绍各种不同的算法类型。
根据学习方式进行分类¶
这种分类或组织机器学习算法的方法是有用的,因为它迫使你考虑输入数据和模型准备过程的角色,并选择一个最适合的问题,以获得最佳结果。
让我们来看看机器学习算法中的三种不同的学习风格:
- 监督式学习
监督学习算法输入数据被称为训练数据,有一个已知的标签或结果,如垃圾邮件/非垃圾邮件或一次股票价格。
一个模型是通过一个训练过程来建立,在这个过程中,它被要求做出预测,并在这些预测错误时被纠正。接下来训练过程继续进行,直到模型在训练数据上达到预期的准确度水平。
例如分类和回归算法。
- 无监督学习
无监督学习算法输入数据没有标签,没有已知的结果。
通过推断输入数据中呈现的结构来建立一个模型。它可能是通过一个数学过程来系统地减少冗余,也可能是通过相似性来组织数据。
例如Apriori算法和K-Means算法。
- 半监督学习
半监督学习算法输入数据是有标记和无标记数据的混合。
目前的一个热门话题是半监督学习方法,在图像分类等领域,有很大的数据集,只有很少的标记例子。
## 基于问题类型进行分类
算法通常根据其功能(如何工作)的相似性来分组。
回归算法¶
回归算法回归涉及对变量之间的关系建模,这些变量之间的关系通过模型预测中的误差来迭代地改进。
回归方法是统计的主力,并已被纳入统计机器学习。
最流行的回归算法有:
- 普通最小二乘回归(OLSR)
- 线性回归
- 逻辑回归
- 逐步回归
- 多元自适应回归样条
### 基于实例的算法
基于实例的算法基于实例的学习模型是一个决策问题,其中包含对模型重要或必需的训练数据的实例或示例。
这类方法通常建立一个示例数据数据库,并使用相似性度量将新数据与数据库进行比较,以便找到最佳匹配并做出预测。因此,基于实例的方法也被称为赢家通吃方法和基于记忆的学习。重点放在存储实例的表示和实例之间使用的相似性度量上。
最流行的基于实例的算法是:
- K近邻
- 支持向量机(SVM)
正则化算法¶
正则化算法对另一种方法(通常是回归方法)的扩展,这种方法根据模型的复杂性来惩罚模型,偏爱更简单的、也更善于泛化的模型。
我在这里单独列出了正则化算法,因为它们很受欢迎,功能强大,通常是对其他方法的简单修改。
最流行的正则化算法有:
决策树算法¶
决策树算法决策树方法根据数据中属性的实际值构建决策模型。
决策分支在树结构中,直到对给定的记录做出预测决策。决策树根据数据进行训练,用于分类和回归问题。决策树通常是快速和准确的,是机器学习中最受欢迎的。
最流行的决策树算法有:
- 分类与回归树(CART)
- 迭代二分类器3 (ID3)
- C4.5和C5.0(不同版本的强大方法)
贝叶斯算法¶
贝叶斯算法贝叶斯方法是那些明确应用贝叶斯定理的问题,如分类和回归。
最流行的贝叶斯算法有:
- 朴素贝叶斯
- 高斯朴素贝叶斯
- 多项朴素贝叶斯
- 平均单依赖估计量
- 贝叶斯信念网络(BBN)
- 贝叶斯网络(BN)
聚类算法¶
聚类算法聚类,像回归一样,描述问题的类别和方法的类别。
聚类方法通常采用基于质心和层次的建模方法进行组织。所有方法都关注于使用数据中的固有结构,以最好地将数据组织成具有最大公共性的组。
最流行的聚类算法有:
- k-Means
- k-Medians
- 期望最大化(EM)
- 分层聚类
### 关联规则学习算法
关联规则学习算法关联规则学习方法提取最能解释数据中变量之间观察到的关系的规则。
这些规则可以发现组织可以利用的大型多维数据集中重要的和商业上有用的关联。
目前最流行的关联规则学习算法有:
- 先验算法Apriori algorithm
- Eclat algorithm
### 人工神经网络算法
人工神经网络算法人工神经网络是受生物神经网络的结构和/或功能启发而建立的模型。
它们是一种模式匹配,通常用于回归和分类问题,但实际上是一个巨大的子领域,由数百种算法和各种问题类型的变体组成。之所以将深度学习从神经网络中分离出来,是因为该领域的巨大增长和流行程度。这里关注的是更经典的方法。
目前最流行的人工神经网络算法有:
- 感知器
- 多层感知器(MLP)
- 反向传播
- 随机梯度下降法
- Hopfield网络
- 径向基函数网络
深度学习算法¶
深度学习算法关注的是构建更大更复杂的神经网络,正如上文所述,许多方法关注的是标记模拟数据的非常大的数据集,如图像、文本。音频和视频。
目前最流行的深度学习算法有:
- 卷积神经网络(CNN)
- 循环神经网络(RNNs)
- 长短期记忆网络
- 自编码Auto-Encoders
- 深度玻尔兹曼机(DBM)
- 深度信念网络(DBN)
降维算法¶
降维算法与聚类方法类似,降维方法寻找和利用数据的固有结构,但在这种情况下,以一种无监督的方式或顺序使用较少的信息来总结或描述数据。
这对于可视化维度数据或简化可用于监督学习方法的数据非常有用。其中许多方法可用于分类和回归。
- 主成分分析(PCA)
- 主成分回归(PCR)
- 偏最小二乘回归
- 多维标度(MDS)
- 线性判别分析
集成算法¶
集成算法集成方法是由多个较弱的模型组成的模型,这些模型经过独立训练,并以某种方式将其预测组合起来进行整体预测。
研究人员花了很多精力研究哪些类型的弱学习者应该结合起来,以及以何种方式结合起来。这是一种非常强大的技术,因此非常受欢迎。
比如
这次机器学习算法之旅的目的是让你对现有的算法有一个概述,以及一些关于如何将算法彼此联系起来。
参考资料: